Piano.cat
    • Categories
    • Recent
    • Tags
    • Popular
    • World
    • Users
    • Groups
    • Register
    • Login
    1. Principal
    2. Uncategorized
    3. Bé, dissabte nit fent hores extres.
    This topic has been deleted. Only users with topic management privileges can see it.
    • spla@mastodont.catS spla@mastodont.cat

      Bé, dissabte nit fent hores extres.

      spla@mastodont.catS spla@mastodont.cat

      Bé, dissabte nit fent hores extres. mastodont.cat, entre d'altres molts servidors del fedivers i externs, ha estat "escrapejat" per els bots de #Meta (https://www.dropsitenews.com/p/meta-facebook-tech-copyright-privacy-whistleblower). La llista:

      https://www.dropsitenews.com/api/v1/file/b3555944-e204-4f5e-9a64-e44281b19a82.pdf

      Parlant amb altres admins, he modificat el fitxer robots.txt per a impedir als màxims bots IA possibles que "escrapejin" directament mastodont.cat.

      El nou robots.txt que ja tenim actiu:

      https://mastodont.cat/robots.txt

      #manteniment

        0
        Offline spla@mastodont.cat •
        , last edited by spla@mastodont.cat
      • quenti@framapiaf.orgQ quenti@framapiaf.org
        quenti@framapiaf.orgQ quenti@framapiaf.org

        @spla dobti que respecten las directivas =/

          0
          Offline quenti@framapiaf.org •
          , last edited by
        • spla@mastodont.catS spla@mastodont.cat
          spla@mastodont.catS spla@mastodont.cat

          @Quenti hi ha admins que tenen aquest robots.txt i no han estat escrapejats però a saber...

            0
            Offline spla@mastodont.cat •
            , last edited by
          • caelumtangi@mastodont.catC caelumtangi@mastodont.cat
            caelumtangi@mastodont.catC caelumtangi@mastodont.cat

            @spla Gràcies per la feina!

              0
              Offline caelumtangi@mastodont.cat •
              , last edited by
            • rierol@mastodont.catR rierol@mastodont.cat
              rierol@mastodont.catR rierol@mastodont.cat

              @spla

              Potser considera una "zip bomb" per als crawlers, via mod_rewrite o a nginx: un arxiu de ~7 kb que s'expandeix a uns 10 GB. Per aturar-los.

                0
                Offline rierol@mastodont.cat •
                , last edited by
              • moribundo@hispagatos.spaceM moribundo@hispagatos.space
                moribundo@hispagatos.spaceM moribundo@hispagatos.space

                @spla Està bé , però penso que no hi ha gaire a fer. Aquests escrapetjos es fan a diari amb OSINT. Ja sabíem que estem en una xarxa de fonts obertes, i tot i que es pugui minimitzar, aconseguiran moltes dades.

                  0
                  Offline moribundo@hispagatos.space •
                  , last edited by
                • mgc@mastodont.catM mgc@mastodont.cat
                  mgc@mastodont.catM mgc@mastodont.cat

                  @Caelumtangi @spla estic amb la Sara: gràcies per la feina!
                  I, ja posats, no sé si l'html bomb que diu en @Rierol pot funcionar...

                    0
                    Offline mgc@mastodont.cat •
                    , last edited by
                  • spla@mastodont.catS spla@mastodont.cat
                    spla@mastodont.catS spla@mastodont.cat

                    @moribundo aquesta opció funciona:

                    Link Preview Image
                    spla (@spla@mastodont.cat)

                    Adjunt: 2 imatges Bon dia! en relació a això: https://mastodont.cat/@spla/115000794647508332 i veient que hi ha robots que no respecten robots.txt, he pujat un esglaó en la guerra contra els bots IA o bots en general que obtenen continguts sense permís. He modificat la configuració de nginx per a que tots els bots que hi he afegit no rebin res de mastodont.cat gràcies al codi http 444 que els hi retorna aquesta configuració. Per exemple, Amazonbot no para de demanar enllaços, ara no rebrà res més que el que es veu en la segona imatge.

                    favicon

                    mastodont.cat, cultura catalana. (mastodont.cat)

                      0
                      Offline spla@mastodont.cat •
                      , last edited by
                    • spla@mastodont.catS spla@mastodont.cat
                      spla@mastodont.catS spla@mastodont.cat

                      @Rierol aquesta opció funciona:

                      Link Preview Image
                      spla (@spla@mastodont.cat)

                      Adjunt: 2 imatges Bon dia! en relació a això: https://mastodont.cat/@spla/115000794647508332 i veient que hi ha robots que no respecten robots.txt, he pujat un esglaó en la guerra contra els bots IA o bots en general que obtenen continguts sense permís. He modificat la configuració de nginx per a que tots els bots que hi he afegit no rebin res de mastodont.cat gràcies al codi http 444 que els hi retorna aquesta configuració. Per exemple, Amazonbot no para de demanar enllaços, ara no rebrà res més que el que es veu en la segona imatge.

                      favicon

                      mastodont.cat, cultura catalana. (mastodont.cat)

                        0
                        Offline spla@mastodont.cat •
                        , last edited by
                      • moribundo@hispagatos.spaceM moribundo@hispagatos.space
                        moribundo@hispagatos.spaceM moribundo@hispagatos.space

                        @spla però es una bogeria. Passarà com YT i el bloqueig dels anuncis, una carrera de fer i desfer, d'estar atent tots els dies a bots nous o formes diferents de fer-ho, perquè aquesta gentussa està disposada a lo que sigui per tal de que la seva IA sigui la millor.
                        Les IAs son molt disruptives i penso que hi ha d'haver-hi un canvi de concepte global i no només fer pegats.
                        Pero fins que aquest moment arribi, suposo que si, que s'ha de fer l'imposible

                          0
                          Offline moribundo@hispagatos.space •
                          , last edited by
                        • spla@mastodont.catS spla@mastodont.cat
                          spla@mastodont.catS spla@mastodont.cat

                          @moribundo sí, poden canviar de user-agent si és que no ho estan fent ja ara o fer altres bots nous...és una bogeria 😅
                          Retornar-lis un 444 no els hi dona pistes, només veuen que la connexió s'ha tallat.

                            0
                            Offline spla@mastodont.cat •
                            , last edited by spla@mastodont.cat
                          • spla@mastodont.catS spla@mastodont.cat
                            spla@mastodont.catS spla@mastodont.cat

                            @Caelumtangi de res! 😃

                              0
                              Offline spla@mastodont.cat •
                              , last edited by
                            • spla@mastodont.catS spla@mastodont.cat
                              spla@mastodont.catS spla@mastodont.cat

                              @mgc de res! 😃 @Caelumtangi @Rierol

                                0
                                Offline spla@mastodont.cat •
                                , last edited by
                              • robertgarrigos@mastodont.catR robertgarrigos@mastodont.cat
                                robertgarrigos@mastodont.catR robertgarrigos@mastodont.cat

                                @spla gràcies. L'aprofitaré pel meu servidor

                                  0
                                  Offline robertgarrigos@mastodont.cat •
                                  , last edited by
                                • spla@mastodont.catS spla@mastodont.cat
                                  spla@mastodont.catS spla@mastodont.cat

                                  @robertgarrigos de res! no és segur que respectin robots.txt, per exemple, Amazonbot no ho fa.
                                  Aquesta configuració per nginx els hi posa més difícil:

                                  spla (@spla@mastodont.cat)

                                  La configuració de nginx per a lluitar contra els bots d'IA i altres "scrappers", l'he obtingut d'aquí: https://github.com/kurren/ai-bots-crawlers #mastoadmin

                                  favicon

                                  mastodont.cat, cultura catalana. (mastodont.cat)

                                    0
                                    Offline spla@mastodont.cat •
                                    , last edited by
                                  Loading More Posts
                                  • Oldest to Newest
                                  • Newest to Oldest
                                  • Most Votes
                                  Reply
                                  • Reply as topic
                                  Log in to reply
                                  • First post
                                    Last post